iT邦幫忙

2025 iThome 鐵人賽

DAY 3
1

今天我的目標是為工作流裝上「篩選器」與「解析器」,只從自己信任的來源(白名單)中,精準地提取出最有價值的內容。

靈感一:建立內容的護城河,為什麼需要 RSS 白名單?

在資訊爆炸的時代,「Garbage In, Garbage Out」是條鐵律,如果我們的靈感來源充滿了不實資訊、廣告農場文或低品質內容,那麼無論後端的LLM有多強大,最終產出的日更靈感來源也將是枯燥乏味,毫無意思。而這份白名單列出了我們信任且欣賞的部落格、新聞媒體或技術網站,只有來自這些源頭的內容,才有資格進入我們的處理流程。

n8n實作步驟:

一、定義來源清單:不再使用單一的RSS節點,而是先用一個Code節點來定義我們的白名單。此節點將輸出一個包含多個RSS網址的陣列。

新增Code節點,貼上以下JavaScript程式碼:(以下以AI工具,一人公司相關文章為主),我使用code節點的原因,是因為我可以自己改寫獲取來源,維護簡單,未來也能改成讀資料庫或表單。

const rsssources = [
{ "url": "https://www.indiehackers.com/feed" },
{ "url": "https://nav.al/feed" },
];
return rsssources;

二、逐一處理:現在我們有了一個清單,但n8n的RSS Feed Read節點一次只能處理一個網址,這時就需要一個關鍵的流程控制節點:Split In Batches(將Batch Size設定為1)。

這個設定會讓n8n像迴圈一樣,將上一步傳來的陣列拆開,一次只將一個RSS網址傳給下一個節點處理,直到全部處理完畢。

透過這兩個節點,我們的工作流就從「處理單一來源」升級為「巡訪整個白名單」,大大擴展了靈感的來源廣度,同時保證了品質。

靈感二:深入內容核心 —— HTML Extract節點剝絲抽繭

RSS Feed 通常只提供文章的標題、摘要和原文連結。但我們需要的是完整的文章內容,才能交給LLM進行分析。這意味著我們需要讓n8n模擬瀏覽器,「訪問」原文連結,並抓取網頁的HTML內容。

靈感三:洗去雜質,留下純金 —— code節點淨化文本

雖然 HTML Extract 幫我們定位到了主要內容,但其中仍然夾雜著許多 HTML 標籤(如 , , 等)。這些標籤對於 LLM 來說是無用的雜訊,甚至可能干擾它的語意理解。在將內容送往 LLM 之前,我們必須進行最後的「清洗」。

Code節點(新版n8n中也稱為 Code 節點)給了我們最大的彈性,可以用幾行JavaScript程式碼來完成這個淨化任務。

明日預告:用Prompt讓AI為我們生成精準的摘要與標籤

今日完成「篩選(Whitelist)→ HTML提取(Extract)→ 資料清洗(Clean)」的工作流,系統不再只是搬運,而是能過濾與淨化的內容處理器。明天將初探LLM,用Prompt讓AI為我們生成精準的摘要與標籤。


【哈囉你好:)感謝你的閱讀!其他我會常出沒的地方:Threads


上一篇
30 天做一個極簡App:n8n 安裝到上手,第一個自動化工作流
下一篇
30 天做一個極簡App:初探 LLM,讓工作流自動產出「摘要+標籤」
系列文
Mobile Dev|日更靈感來源 App:Flutter × LLM × n8n,每天只推 3 則!6
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言